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摘 要: 向 量 空间 模型 (VSM) 是 一 种 使 用 特征 向 量 对 文本 进行 建 模 的 方法 ， 广 泛 应 用 于 文本 分 类 、 模 式 识别 等 领域 。 
但 文本 内 容 较 多 时 ， 传 统 的 VSM 建 模 可 能 产生 维 数 爆炸 现象 ， 效 率 低 下 且 难 以 保证 分 类 效果 。 针 对 VSM 高 维 现象， 
提出 一 种 利用 词义 和 词 频 降 低 文本 建 模 维度 的 方法 ， 以 提高 效率 和 准确 度 。 提 出 一 种 多 义 词 判别 优化 的 同义词 聚 类 方 
法 ， 结 合 上 下 文 判别 多 义 词 的 词义 后 ， 根 据 特征 项 词义 相似 度 进行 加 权 ， 合 并 词义 相近 的 特征 项 。 新 方法 使 特征 向 量 
维度 大 大 降低 ,多 义 词 判 别提 高 了 文章 特征 提取 的 准确 性 。 与 其 他 文本 特征 提取 和 文本 分 类 方法 进行 比较 , 结果 表明 ， 
该 算法 在 效率 和 准确 度 上 有 明显 提高 。 
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Method based on word meaning and word frequency to Improve vector Space model 


Deng Xiaoheng', Yang Zirong, Guan Peiyuan 
(School of Software, Central South University, Changsha 410075, China) 


Ri Abstract: Vector space Model (VSM) is a method of modeling text using Eigenvector, which is widely used in the fields of text 


categorization and pattern recognition. But when the text content is more, the traditional VSM model may produce the dimension 


explosion phenomenon, the efficiency is low and the classification effect is difficult to guarantee. Aiming at the phenomenon of 


VSM, this paper proposes a method to reduce the dimension of text modeling by means of word meaning and frequency, in order 


to improve efficiency and accuracy. In this paper, we propose a synonym clustering method for polysemy discriminant 
optimization, combining with the context distinguishing word meaning, weighted by the similarity of the word meaning, and 
merging the feature items with similar meanings. The new method has greatly reduced the dimension of eigenvector, and 
polysemy has improved the accuracy of feature extraction. Compared with other text feature extraction and text categorization 
methods, the results show that the algorithm has a significant improvement in efficiency and accuracy. 


Key words: text categorization; feature selection; chi-square; vector space model 


类 性 能 的 瓶颈 问题 ,通常 使 用 特征 选择 方法 来 对 文本 进行 降 维 。 
降低 维 数 的 一 个 主要 方法 就 是 特征 选择 ， 即 根据 词 频 或 类 别 匹 
文本 分 类 是 考虑 文本 的 属性 与 各 个 类 别 之 间 的 匹配 度 来 进 ” 配 度 等 信息 评估 最 能 表征 文本 的 p 个 特征 项 ， 以 此 代表 文本 关 


0 


行 划 分 的 过 程 趾 。 文 本 是 自然 语言 处 理 的 一 个 重要 研究 方向 ， ” 键 特征 。 

在 信息 精准 推送 、 信 息 过 滤 、 网 络 传输 优化 等 方向 有 极 高 的 应 文本 分 类 最 重要 的 过 程 是 特征 选择 ， 目 前 主要 的 文本 特征 
用 价值 ， 被 应 用 在 广告 精准 推送 、 门 户 网 站 新 闻 往 选 、 购 物 平 ”选择 方法 有 卡 方 检验 户 (CHI)、 信 息 增益 BCIG)、 文 档 频 次 CDF ) 
台 精 准 推荐 、 社会 话题 挖掘 、 与 情 分 析 、 流感 疫情 监控 等 方面 ， 等 。 其 中 ， 卡 方 检验 和 互信 息 都 表示 文档 主题 与 特定 类 别 之 间 
具有 非常 重要 的 现实 意义 。 的 相关 性 ,CHI 值 或 MI 与 文档 特征 与 特定 类 别 呈正 相关 关系 。 


文本 的 VSM 建 模 是 将 文本 中 词 视 为 文本 的 特征 项 ， 根 据 ”以 上 几 种 文本 特征 提取 方法 没有 绝对 最 优 ， 在 不 同 场 合 下 有 不 
一 定 规则 将 文本 建成 一 个 特征 项 的 向 量 ， 但 该 方法 会 带 来 维 数 。” 同 的 表现 效果 。CHI 特征 提取 效果 较 好 ， 相 比 其 他 方法 计算 代 
过 高 和 数据 稀疏 性 问题 。 过 高 的 维 数 需要 巨大 的 计算 量 ， 数 据 “，” 价 更 高 。 对 于 英文 文本 的 特征 提取 , CHI 和 IG 的 效果 其 他 方法 
稀 玻 性 问题 意味 着 大 量 的 无 用 计算 ， 因 此 ， 文 本 降 维 是 文本 分 。 更 好 。 在 中 文 文本 特征 提取 中 ，CHI 的 效果 最 好 ， 其 次 是 IG。 
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针对 CHI 模型 的 改进 研究 得 到 许多 学 者 的 关注 。 
如 果 要 提 
度 , 则 维度 不 能 太 低 ; 如 果 维 度 太 高 , 又 会 大 大 降 


现 有 文本 分 类 模型 的 一 个 难点 在 于 ， 


高 分 类 准确 
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和 特征 值 权重 对 分 类 的 影响 ， 但 是 没有 考虑 特征 分 布 差异 性 。 
抒 云 飞 等 人 0 提出 一 种 改进 的 卡 方 函 数 ， 新 增 了 三 个 参数 用 以 


氏 分 类 效率 ; 


特征 项 的 权 值 是 基于 频率 来 计算 的 ， 没 有 考虑 语义 和 特征 项 之 
间 的 相关 度 。 因 此 ， 为 降低 模型 维度 和 权证 项 权 值 准确 性 ， 文 


本 通过 同义词 词 表 对 特征 项 进行 同义词 合 六 
时 提高 关键 特征 项 的 权 值 ,增强 了 特征 项 选择 的 准确 性 .此 外 ， 
针对 CHI 方法 对 于 低频 次 过 于 敏感 的 问题 , 使 
权 值 进行 优化 ， 使 模型 达到 更 好 的 分 类 效果 。 针 对 同义词 聚 类 
时 一 词 多 义 问题 ， 提 出 基于 多 义 词义 项 判别 的 同 


方法 。 
1 ”相关 工作 
1.1 文本 分 类 


F， 在 降低 维度 的 同 


] 词 频 对 特征 项 


义 词 聚 类 优化 


20 世纪 60 年 代 ，Salton 等 人 首次 提出 用 向 量 


对 文本 建 模 ， 引 入 索引 向 量 表征 文本 特 生 


E 和 属性 ， 


学 性 质 大 大 提高 计算 效率 和 准确 性 ， 广 泛 应 / 
息 索引 等 领域 。1997 年 ，Joachims 等 人 将 支持 向 量 机 外 引入 


空间 的 思想 
其 良好 的 数 


于 文本 分 类 、 信 


VSM 模型 ， 提 高 了 分 类 准确 性 。 2002 年 ， Chieu 等 人 将 最 大 


炉 中 引入 文本 分 类 ， 取 得 良好 的 效果 。2005 稀 
粗糙 集 四 方法 引入 N 元 分 类 , 大 大 减少 分 类 模型 训练 时 间 。2005 
年 ，Hirsch 等 人 将 遗传 算法 引入 文本 分 类 ， 使 用 TD-IDF 进行 


FE，Gutptal 等 人 将 


特征 选择 ， 取 得 良好 分 类 效果 。2006 年 ，Arunasalam 等 人 将 关 
联 规 则 方法 引入 文本 分 类 ， 解 决 了 文本 分 类 时 存在 的 类 别 不 平 


衡 的 问题 。2009 年 ，Yi 等 人 将 因 马 尔 可 夫 模 型 1 引入 医学 文本 


分 类 ， 实 现 了 医学 领域 不 同 分 支 的 文本 分 类 。 


近 的 短语 加 权 以 提高 文本 分 类 准确 度 。2002 年 Yang 等 人 利用 
普林斯顿 大 学 开发 的 英文 语料库 HowNet 和 WordNet， 进 行 词 


在 文本 特征 项 词性 和 词义 方面 ,1997 年 Belhumeur 等 人 提 
出 将 短文 本 语义 相似 度 B&19 引 入 特征 项 过 滤 ， 将 含义 相似 或 相 


更 新 特征 值 的 权重 ， 使 得 待 选 特征 项 更 多 地 分 布 在 某 一 类 中 。 
肖 婷 等 将 文本 内 的 特征 项 频次 引入 模型 加 权 ， 并 将 类 内 的 正确 
度 作 用 模型 一 个 重要 指标 , 优化 CHI 建 模 时 低频 次 权重 过 高 的 
问题 。 以 上 方法 考虑 的 特征 项 的 频次 问题 和 分 布 差异 问题 ， 但 
是 没有 考虑 正 负 相关 性 问题 。 Messad 等 人 将 信息 增益 和 文本 频 
率 结合 到 CHI 中 , 提出 三 种 方法 组 合 的 特征 选择 方案 ,弥补 CHI 
的 不 足 。Galavoti 等 人 提出 一 种 特征 项 和 类 别 正 负 相 关 性 的 方 
法 ， 强 调 文本 特征 项 对 于 分 类 起 的 作用 。 以 上 方法 在 特征 项 的 
词性 上 和 传统 CHI 一 样 ， 都 没有 考虑 特征 项 和 特征 项 之 间 的 相 
关 性 ， 而 是 把 每 个 特征 项 都 看 做 彼此 独立 的 的 单位 ， 进 从 数学 
概率 和 建 模 方法 上 提出 改进 ， 对 特征 项 词义 方面 并 没有 关注 。 
1.2 基于 VSM 文本 分 类 模型 原理 及 不 足 

人 类 能 阅读 抽象 的 文本 信息 ， 综 合 文本 前 后 文 的 关系 和 语 
义 逻 辑 ， 基 于 理解 的 方法 找到 文本 的 关键 特征 ， 从 而 找到 其 所 
属 类 别 。 但 是 计算 机 无 法 想 人 类 一 样 理解 文本 ， 为 使 计算 机 也 
能 对 文本 进行 特征 选择 和 分 类 ， 将 文本 进行 分 词 后 ， 统 计 其 词 
频 信息 ， 根 据 文本 词 频 和 语料库 词 频 的 相关 度 找 出 一 组 特征 词 
向 量 ， 再 以 此 进行 分 类 等 操作 。 将 抽象 的 文本 拆 分 为 词 频 的 统 
计数 据 的 过 程 即 为 VSM 的 核心 思想 。 在 VSM 模型 中 , 文本 表 
征 为 一 组 特征 项 的 集合 ， 每 一 个 特征 项 都 有 权 值 信息 ， 表 征 该 
特征 项 的 重要 程度 。 TF-IDF 是 用 来 估计 一 个 词 对 某 个 文档 集中 
的 某 分 文档 或 整个 语料库 的 重要 程度 ， 用 来 表示 词 的 重要 性 ， 
与 该 词 在 整个 语料库 中 出 现 频 率 成 反比 ， 与 该 词 在 指定 文档 中 
出 现 次 数 成 正比 。 

将 文本 分 词 建 模 后 ， 其 维 数 往往 很 大 ， 需 要 对 文本 进行 降 
维 处 理 。 使 用 VSM 对 文本 进行 分 类 前 ， 需 要 对 文本 进行 预 处 


义 联系 在 文本 特征 提取 方面 的 研究 ， 但 是 时 间 
较 高 。2009 年 ，Gad 等 人 使 用 词义 关系 DC 人 


项 TF 值 ， 取 得 良好 效果 。 


文本 建 模 后 ， 需 要 对 其 对 其 进行 特征 选择 [51， 


方法 是 CHI，CHI 基于 概率 统计 模型 ， 有 


和 空间 复杂 度 都 
化 了 文本 内 特征 


种 常用 的 


良好 的 数学 性 ， 便 于 


计算 和 分 析 。 但 是 CHI 也 有 一 些 缺点 ， 如 没有 考虑 文本 的 差异 


性 ， 没 有 考虑 特征 项 词义 词性 ， 对 低频 次 过 于 敏感 等 问题 。 针 


对 CHI 的 缺点 ， 学 术 界 提取 许多 改进 方法 。Li 等 人 考虑 了 不 同 
分 类 中 的 文本 差异 性 问题 ， 提 出 类 别 权重 因子 ， 针 对 特定 的 类 
对 模型 进行 优化 。 裴 英 博 04 等 通过 考察 类 别 文本 数 ， 分 析 分 散 
度 和 集中 度 对 建 模 的 加 权 影 响 ， 提 高 在 语料库 各 类 别 文本 数 不 
均 时 的 建 模 准确 度 。 能 忠 阳 等 人 05 针 对 文本 类 别 库 中 特征 分 配 
不 均匀 等 问题 ， 将 文本 频数 、 特 征 分 散 度 、 集 中 度 等 参数 引入 


CHI 模型 ， 提 高 了 模型 的 分 类 准确 性 。 王 
IG 两 种 方法 的 特点 ， 提 出 CHI-IG 的 特 生 


光 等 人 0 


FE 选择 方法 


结合 CHI 和 
， 利 用 两 种 


方法 互补 ， 提 高 模型 稳定 性 和 性 能 。 以 上 方法 考虑 了 建 模 因 子 


/ 

滤 除 无 用 信息 ， 包 括 对 文本 进行 格式 化 、 分 词 、 去 停 用 词 
等 。 特 征 向 量 是 根据 一 定 规则 提取 文本 特征 集中 的 一 部 分 特征 
项 来 表征 文本 内 容 , 文 本 特征 选择 方法 中 最 重要 的 是 评估 函数 ， 
对 特征 项 的 重要 性 进行 评估 ， 然 后 根据 重要 性 从 大 到 小 排序 ， 
选择 前 p 个 作文 文本 的 特征 子 集 ， 达 到 降 维 的 目的 。 
CHI 是 一 种 经 典 特征 评估 函数 。 CHI 模型 表述 为 式 (1) : 对 
于 特征 项 t.， 如 果菜 一 类 的 文本 集 c; 中 含有 该 项 的 文本 数 比 例 
很 大 ， 其 他 类 文本 集中 含有 含 项 的 文本 数 比 例 很 小 ， 则 特征 项 
tk 对 类 别 c 有 越 强 表征 能 力 。 假 设 有 特征 集 
T={t. |k=12,3,…,,m} ，cj 为 第 j 类 文本 集 , 该 类 别 中 的 文本 
总 数 为 ns， 使 用 CHI 来 度量 特征 项 ti 和 类 别 cj 之 间 的 相关 性 。 
_ n(AD-CB) 

(A+C)(B+D)(A+B)(C+D) 
其 中 : ti 表示 特征 项 ，c¢; 为 第 j 类 文本 集 ,， A 是 ci 类 中 含有 
的 文本 数 ，B 是 语料库 中 5i 外 含有 上 的 文本 数 ，C 是 ci 类 中 不 
含 t 的 文本 数 ,，D 是 cj 外 不 含 ti 的 文本 数 ，n 是 语料库 中 文本 
数 的 总 和 。 可 知 ，(A+C) 为 类 c 的 文本 总 数 ns ，(B+D) 为 语料库 
中 类 ci 外 的 文本 总 数 ， 这 两 个 值 都 为 常数 ,因此 式 (1) 可 简化 


x (tse) GO) 
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为 
(AD-CB) 
A O) 


车 t 和 cj 相互 独立 , 则 (4,c))=0，, 该 值 越 大 , 则 说 明 羽 


和 ci 相关 性 越 强 。 
特征 项 的 权 值 定 为 
x (4)=max{x (hc)) (3) 


进行 特征 项 选择 时 ， 选 择 权 值 最 大 的 前 p 个 特征 项 来 表征 


使 用 以 上 方法 进行 分 本 分 类 时 可 能 出 现 的 问题 有 : 没有 考 
察 特 征 项 的 词性 ， 认 为 特征 项 之 间 彼 此 独立 ， 但 实际 情况 中 往 
往 出 现 多 个 词 代表 一 个 含义 的 情况 ， 针 对 这 种 情况 ， 本 文 提 出 
一 种 使 用 近义词 来 对 特征 项 和 选 和 合并 的 方法 ,此 外 ,传统 CHI 
方法 对 低频 次 非常 敏感 ， 难 以 对 低频 次 赋予 正确 的 权 值 ， 当 一 
个 语 料 中 的 低频 次 在 某 文本 中 出 现 较 多 时 ， 该 低频 次 的 权 值 就 
很 大 ， 而 往往 文本 并 非 要 表达 该 低频 词 ， 阵 地 该 问题 ， 本 文 提 
出 一 种 根据 词 频 来 对 特征 项 权 值 进行 优化 的 方法 ， 以 避免 低频 
次 敏感 的 问题 。 


2 基于 词义 和 词 频 的 VSM 模型 改进 方法 


2.1 基于 特征 词 词义 的 特征 向 量 优化 

汉语 语言 体系 博大 精深 , 同一 种 意思 往往 有 多 种 表达 方法 ， 
如 “土豆 ”和 “ 马 铃 慕 ”" 代 表 同 两 者 可 以 互 换 ;“ 开 心 ”? 和 
“愉快 ”代表 同一 类 心情 ， 但 两 者 表示 高 兴 的 程度 不 一 样 ， 在 某 
种 程度 下 可 以 互 换 ;“ 火 车 "和 “动车 ”属于 同 
往 不 能 互 换 ， 但 是 有 很 大 的 相关 性 。 而 同一 个 意思 往 
多 种 表达 方式 ， 如 表达 一 个 人 很 悲伤 ， 可 以 用 “悲痛 欲 绝 ”， 也 
可 以 用 “ 愁 容 满 面 *， 只 是 两 者 表示 的 程度 不 一 样 。 词 语 和 词类 
是 多 对 多 的 关系 ， 如 图 1 所 示 。 


class1 


个 意思 ， 
En 


类 交通 工具 ， 往 
主 也 有 很 


这 


class2 


图 1 词 与 词类 的 多 对 多 关系 


中 文 的 字 词 通常 以 读音 为 顺序 进行 编排 ， 如 《新 华 字典 》 
《辞源 》《 辞 海 》 等 ,近代 将 中 文字 词 以 词义 进行 统一 编排 的 有 
1983 年 梅 家 骆 版 《同义词 词 林 》。 进 入 现代 后 ， 中 文 语言 体系 
发 生 了 很 大 变化 ， 新 词 不 断 增加 ， 旧 词 不 断 淘汰 。 和 
检索 实验 室 对 中 文 词汇 重新 进行 了 一 次 系统 编排 ， 收 录 近 
ne i 
表 1 所 示 。 文 本 对 第 5 级 进行 合并 和 过 滤 。 


inaXiy 合 作 期 刊 | 


Ch 
邓 晓 衡 ， 等 ; 一 种 基于 词义 和 词 频 的 向 量 空 间 


表 1 词语 汇编 表 


编码 符号 举例 符号 性 质 级 别 
1 A 大 类 第 1 级 
2 c 中 类 第 2 级 
3 3 小 类 第 3 级 
4 6 小 类 第 3 级 
5 B 词 群 第 4 级 
6 1 原子 词 群 第 5 级 
7 3 原子 此 群 第 5 级 
8 =%&@ 


在 文本 Da 中 ， 假 如 特征 项 t; 和 4 的 含义 完全 相同 ，Da 中 
特征 项 t; 的 个 数 为 n; ，ti 的 特殊 为 nj ， 则 可 将 文本 中 全 部 的 
替换 为 ， 此 时 的 个 数 为 n;+n;， 重 新 计算 t 的 TF-IDF 值 ， 
去 除 特 征 向 量 中 的 特征 项 5 ， 新 的 特征 向 量 维 数 减 1。 
对 于 含义 相近 但 不 能 完全 互 换 的 词 ， 可 以 根据 其 相似 度 进 
行 加 权 。 如 合并 第 5 级 ， 则 对 第 4 级 的 词类 统一 编号 ， 设 词类 
总 数 为 N ， 设 词 类 特征 向 


[Pl 


二 


TY 


S(t )= {classl : Wi ,Class2: Wi 


,classn : ww 的 维度 为 N。 对 于 


文本 Da 的 特征 向 量 va = 


{位 :wat2: Ww,,…stn: ws, 中 的 特征 


项 t, ， 如 果 它 同时 属于 多 个 词类 ， 则 将 其 对 应 词类 置 为 1， 其 
他 类 置 为 0， 如 此 将 t 映射 为 词类 向 量 t。 

两 个 特征 项 t; 和 tj 的 相似 度 可 用 余弦 相似 度 计算 ， 如 式 
(4) 所 示 。 


由 


= 


> i xp 
小 攻 “应 (4) 


由 于 一 篇 文本 的 所 属 词类 往往 很 多 ， 用 以 上 方式 表述 需要 
大 量 的 计算 。 根 据 词 和 词类 的 对 应 特性 ， 将 词 表 述 为 词类 的 集 
合 。 如 词 t 同时 属于 classl 、class7、class15 这 三 个 词类 ， 则 可 
将 4 表述 为 C(t;)， C(t) ={classl,class7,class15} , 则 两 个 词 的 相 
似 度 可 简化 为 


sim(S(#),S 


c(i) acls) 


c(i)lxyc(s) 


sim(S(#),S (5))= (G5) 


确定 了 两 个 特征 项 的 相似 度 之 后 ， 则 和 对 相似 度 高 的 特征 
项 进行 加 权 合 并 。 假 设 特征 项 ti 和 tt 的 相似 度 为 


sim (S(t),S()) ， 的 TE-IDF 值 较 大 ，5 的 TF-IDF 值 较 小 ， 


说 明文 本 中 该 词义 主要 表述 为 t;。 设 文本 中 ;的 个 数 为 n; ， 
的 文本 个 数 为 n;， 则 可 将 tt 和 tt; 合 并 为 t ， 新 的 ti; 值 为 


Di 十 sim(S(ti),S(t;)) xnij。 
根据 《同义词 词 林 扩展 版 》 合 并 掉 所 有 第 5 级 的 所 


同 义 
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词 近义词 ， 得 到 新 的 向 量 ， 为 优化 后 的 特征 向 量 。 
2.2 ”基于 特征 词 词 频率 的 低频 词 敏感 优化 方法 

特征 对 类 别 的 表征 能 力 体现 在 两 个 方面 ， 理 想 情 况 下 ， 最 
能 表征 一 个 类 别 的 特征 项 应 该 在 该 类 语料库 中 大 量 出 现 ， 在 其 
他 类 的 则 很 少 出 现 ， 反 映 到 CHI 的 模型 中 ， 即 类 ci 中 含有 特征 
项 的 文本 数 越 多 (A 值 越 大 ), 在 其 他 类 别 中 含有 特征 项 t 的 
文本 书 越 少 B 值 越 小 )， 则 t 对 类 ci 的 表征 能 力 越 强 。 

分 析 CHI 公式 可 知 ，n。 是 类 ci 中 文本 总 数 , 是 常数 , n 是 
语料库 中 的 文本 总 数 ， 也 是 常数 ， 因 此 A 越 大 则 C 越 小 ，A/C 
就 越 大 ，B 越 小 则 D 越 大 ，B/D 就 越 小 。 根 据 CHI 的 思想 ， 应 
寻找 到 A/C > B/D 特征 项 ， 即 AD-BC>0，(AD-BC) 的 值 越 大 说 
明 其 表征 类 别 的 能 力 就 越 强 。 

但 是 ， 从 CHI 的 公式 中 发 现 ， 如 果 某 特征 项 的 (BC-AD) 值 
较 大 ,该 特征 项 也 会 被 选中 ,对 应 情况 是 在 其 他 类 中 出 现 较 多 ， 
而 在 ci 中 出 现 概率 较 小 的 特征 项 ， 即 6; 中 的 低频 次 。CHI 的 模 
型 使 得 其 对 低频 次 敏感 ， 则 文本 中 的 低频 次 往往 不 应 成 为 文本 
的 特征 ， 甚 至 应 当 作 为 噪声 去 除 。 

以 上 两 种 情况 分 别 为 特征 项 和 词类 呈现 的 正 相关 性 和 负 相 
关 性 。 若 文本 类 别 ci 中 的 特征 项 在 该 类 中 普遍 出 现 ， 在 其 他 
词类 中 却 很 少见 ， 说 明和 c; 有 强烈 的 正 相 关 关 系 ， 待 分 类 文 
本 中 如 果 该 特征 项 大 量 出 现 ， 则 可 认为 该 文本 与 类 别 cj; 有 很 大 
的 相关 性 ， 称 为 正 相 关 。 反 之 ， 如 果 太 在 ci 中 几乎 不 出 现 ， 在 
其 他 类 别 出 现 次 数 较 多 ， 当 文本 中 大 量 出 现 女 ， 则 说 明 待 分 类 
文本 有 很 大 可 能 不 属于 类 ci ， 称 为 负 相 关 。 

对 于 频率 特别 低 的 特征 项 ， 往 往 在 文本 处 理 阶段 就 会 将 其 


| 


反之 ， 


征 项 却 可 能 会 被 滤 除 ， 或 者 低估 
项 ti 在 类 ci 中 的 所 有 文本 内 的 频次 。 记 人 三. (ti ) 为 特征 项 ti 在 


Chinaxkiy 合 全 有 
一 种 基于 词义 和 词 频 的 向 量 空 间 模 型 改进 方法 
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一 些 文档 频次 不 是 很 高 ， 但 是 文本 内 频次 很 高 的 特 
其 权 值 。 为 此 ， 应 该 考虑 特征 


类 别 文本 di 中 出 现 的 频次 ， 则 特征 项 t 在 在 类 别 ci 中 的 出 现 
频次 为 
2 (9) 
为 使 得 作为 优化 参数 代入 公式 ， 对 其 进行 归 一 化 ， 记 优化 
权重 因子 么 如 式 〈10) 所 示 。 
将 CHI 公式 更 新 为 
和 (= 和 xlax Dx lie) 
Sl c))] GD) 
此 时 ， 改 进 后 的 CHI 模型 降低 了 低频 次 的 影响 ， 增 强 了 文 


档 内 频次 高 的 特征 项 的 权重 。 


2.3 ”基于 多 义 词 义 项 判别 的 同义词 聚 类 优化 方法 
自然 语言 处 理 中 , 往往 要 面 对 各 种 消 歧 问题 ,如 注音 歧义 、 


分 词 歧 义 、 
针对 特定 的 


常会 面临 此 类 问题 ， 如 "德州 
的 是 两 个 不 同 的 地 方 ， 


词义 歧义 、 语 用 歧义 等 。 其 中 ， 词 义 消 歧 往 往 需要 
上 下 文 来 选择 合适 的 含义 ， 人 类 在 理解 语言 时 也 时 
克 " 和 "德州 扒 鸡 " 中 的 “德州 " 指 
“一 袋 苹果 "和 " 蔷 果 手机 "中 的 “苹果 " 指 


作为 噪声 去 除 ， 然 而 有 一 些 中 频 词 ， 往 往 具 有 一 定 低频 词 的 属 
性 ， 对 类 别 ci 可 能 呈现 负 相关 性 ,但 是 CHI 值 却 比较 大 。 为 了 
提高 文本 分 类 模型 的 准确 度 ， 将 特征 项 对 类 别 ci 的 影响 能 力 分 
为 正 相 关 性 和 负 相 关 性 两 个 类 别 分 别 考 虑 。 

+ (4D-CB) 


x (hc)) Se CB>0 (6) 
- (4D-CB) 
x (hc)) [AT BC+D)" 名 CB<0 (7) 
优化 后 的 CHI 公式 为 
X(t)=ax 2 ( cj) 生 
(1-o)x Dx (hc) (8) 


Q e(0.5,1), 是 调节 正 负 相关 度 比 重 的 参数 ,实验 部 分 将 其 取 值 
为 0.8。 

CHI 公式 中 ，A,B,C,D 都 是 以 文本 数 为 单位 进行 计算 的 ， 
没有 考虑 文档 内 频次 。 假 定 类 别 e 中 含有 特征 项 t 的 文本 数 为 
Ai, 含有 特征 项 t 的 文本 数位 Aij， 若 Ai 与 Ai 相等 , 则 CHI 认 
为 特征 项 t 和 tt 对 类 别 c 的 表征 能 力 相 同 。 但 是 实际 情况 中 ， 
如 果 文 本 内 的 频次 高 于 t}， 应 当 认 为 t; 比 tj 对 类 c 有 更 强 的 
表征 能 力 ， 但 是 CHI 公式 无 法 表征 出 这 种 差异 性 。 


的 是 两 种 不 


同 的 东西 。 在 自然 语言 处 理 中 ， 同 义 词 和 多 义 词 是 


一 个 普遍 现象 ， 一 个 词语 可 能 同时 属于 多 个 词 群 ， 一 个 词 群 也 


包含 多 个 记 
确 的 找 出 其 


语 ， 如 图 2 所 示 。 针 对 


含义 ， 往 往 会 对 分 类 结果 造成 很 大 影 


词 多 义 情 况 ， 如 果 不 能 正 
姑 此 ， 在 


WE=Iy 


使 用 同义词 降 维 前 ， 找 到 多 义 词 和 正确 义 项 非常 重要 。 

词 向 量 原子 词 群 向 量 集 

飞行 员 | |[Aeo3co1= | 驾驶 员 | 司机 | ……. 

区 Ae03C02= | 飞行 员 | 航空 员 | …… 

航空 员 | | 

本 Aeo7COI= | 渔民 | 渔夫 | …… 

渔民 H- |[LAeosAot= | 猎 # | 猎人 | …… 
图 2 词语 与 词 群 的 关系 

1954 年 Harris 年 提出 分 布 式 假说 ， 认 为 "上 下 文 相似 的 单 


词 ， 语 义 也 相似 "，Firth 与 1957 年 对 该 假说 进行 进一步 阐述 ， 


认为 “ 词 的 语义 由 其 上 下 文 决定 ”。 一 般 认为 上 下 文 指定 一 个 特 
定 的 语 境 ， 词 语 在 相似 的 语 境 下 的 语义 一 般 相似 ， 通 过 计算 上 


下 文 语 境 的 相似 度 来 对 多 义 词 词义 进行 标注 ， 可 减少 同义词 聚 


类 时 一 词 多 
方法 称 为 Si 


义 带 来 的 影响 。 使 用 上 下 文 对 词语 含义 进行 预测 的 


ngle sense word vector， 一 个 单词 对 应 一 个 词 向 量 


没有 考虑 
直观 感受 ， 


词 多 义 ， 结 果 即 平均 化 的 结果 。 该 方法 虽然 不 符合 
在 实际 应 


中 却 有 较 高 的 准确 性 和 可 靠 性 。 针 对 相 


201804.02043v1 


Mx 


chinaXiv 


录用 稿 


似 的 上 下 文中 ， 多 义 词 不 同 含义 的 情况 ， 上 述 方法 并 不 全 面 ， 
如 “小 明 买 了 一 袋 苹果 ”和 “小 明 买 了 一 部 苹果 ”*”， 这 两 个 句子 上 
下 文 相似 度 非 常 高 ， 但 是 “苹果 ”在 两 个 句子 中 表示 的 含义 完全 
不 同 。 针 对 这 种 情况 ， 有 两 种 方法 ， 第 一 ， 增 加 二 元 组 中 上 下 
文 词语 集合 的 维度 ， 使 上 下 文 包含 的 内 容 更 多 ， 含 义 更 明确 。 
第 二 ,使 用 multiple sense word vector, 用 来 解决 一 词 多 义 问题 ， 
计算 在 特定 的 上 下 文中 ， 多 义 词 的 每 个 含义 出 现 的 概率 ， 取 最 
大 条 件 概率 为 判别 结果 ， 即 “一 袋 人 苹果” 中 ,，“ 苹 果 ” 是 水 果 的 概 
率 大 于 “苹果 ”是 手机 的 概率 。 具 体 过 程 为 ， 建 立 特 征 项 和 上 下 
文集 合 的 二 元 组 ($,,Viowew ) ， 其 中 Vor =(V,%,…s) 表示 5; 的 


上 下 文 词语 集合 ， 计 算 在 特定 上 下 文 下 多 义 词 每 个 义 项 出 现 的 
概率 ， 取 最 大 条 件 概 率 的 词义 为 判别 结果 。 公 式 表示 为 
max p(s;) TIzw， | >) (12) 


es 
先 验 概率 和 条 件 概率 无 法 通过 语料库 直接 计算 ， 而 是 使 用 同 义 
ee ee 
料 库 足够 大 时 ， 通 过 统计 的 方法 ， 可 得 到 各 个 词义 和 上 下 文 的 
组 合 关系 ， 从 而 获得 在 特定 上 下 文中 多 义 词 的 词义 。 

本 文 在 同义词 聚 类 时 ， 新 增 一 个 词义 判别 过 程 ， 为 多 义 词 
找到 正确 含义 。 根 据 以 上 假说 ， 使 用 上 下 文 语 境 的 方法 来 判别 
多 义 词 的 义 项 , 具体 实现 过 程 为 , 建立 一 个 M*N 的 矩阵 ,，M 表 
示 词 义 数 ，N 表示 语料库 中 词语 个 数 。 为 方便 代码 实现 ， 使 用 
个 M 维 向 量 存储 同义词 词典 原子 词 群 的 编码 ， 使 用 一 个 N 
向 量 存储 语料库 中 的 词语 。 

算法 过 程 如 下 : 


EE] 


a) 根 据 《 同 义 词 词典 》 得 到 《多 义 词 词典 》 
b) 根 据 《 多 义 词 词典 》 得 到 编码 向 量 
c) 根 据 词语 搭配 库 产 生得 到 配对 组 合 
gd) 得 到 多 义 词义 项 判别 矩阵 
整体 算法 框图 如 图 3 所 示 。 
多 义 词 词典 
骄傲 > Ed03A04= > Ed03A04= 同义词 词典 
漏洞 |-*| Cb22A01= |-*|[ Dat5c01= | 人 
Ee34D0O1= 骄 傲 
| 
上 下 文 词语 向 量 
w | mm [| 词语 搭配 库 
二 元 组 1 同 现 次 数 1 
义 项 判别 矩阵 L. 
二 元 组 1 同 现 次 数 2 


图 3 多 义 词义 项 判别 算法 框图 


算法 实现 关键 代码 如 下 所 示 : 
算法 : 多 义 词 义 项 判别 方法 
输入 : 同义词 词典 (synonymicon )， 


多 义 词 词典 


(polysemantic 


邓 晓 衡 ， 


dictionary)， 词 语 组 合 库 
词语 组 合 向 量 (Word Vector) 
输出 多 义 词义 项 判别 矩阵 (Matrix) 
for(int i=0;i!=R.size();i+t++){ 
//4 为 搭配 左 词 ，B 为 搭配 右 词 
if(PolyDic.find(A)){//4 为 多 义 词 
if(WordVec.find(B)){//B 在 上 下 文中 


while(P++){ 
// 返 回 编 码 向 量 中 的 索引 
i=GetIndex(CodeVec, *P++); 
B 在 上 下 文中 的 索引 


j=GetIndex(WordVec, B); 


// 返 回 


if(PolyDic.find(B)){//8 为 多 义 词 
//H 为 8B 的 义 项 数 
Matrix[i][j]+=count/H; 
else 
Matrix[i][j]+=count; 
} 
} 
if(PolyDic.find(B)){//8 为 多 义 词 


P=GetHead(B); 


if(WordVec.find(4)){//4 在 上 下 文中 


while(P++){ 

// 返 回 编码 索引 
i=GetIndex(CodeVec, *P); 
// 返 回 A 在 上 下 文中 的 索引 


j=GetIndex(WordVec, A); 


if(PolyDic.find(A)) 
/作为 4 的 义 项 数 
Matrix[i][j]+=count/L; 
else 


Matrix[i][j]+=count; 
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(wordSetR)， 编 码 向 量 (Code Vector )， 


} 
} 
} 
} 
} 
} 
在 得 到 多 义 词 的 义 项 判别 矩阵 之 后 ， 利 用 以 下 公式 估算 先 
验 概 率 p(s;) 和 条 件 概率 p(V.|s,)， 公 式 如 下 : 
c(s;) 
I we 
pu- a 
比 中 :c(5,) 表示 词义 5 出现 的 次 数 ，c(5,) 表示 5 和 上 下 文 
v 共同 出 现 的 次 数 。 
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3 ”实验 结果 与 分 析 


实验 环境 为 : 操作 系统 为 Windows 10，CPU 为 Intel Core 
i5-3337U, 内 存 4GB, 分 类 平台 为 Weka。 使 用 中 科 院 ICTCALS 
官方 提供 的 ICTCLAS 汉语 分 词 系统 进行 分 词 ， 使 用 哈工大 信 
息 检 索 实 验 室 通用 词 表 去 除 停 用 词 ， 使 用 哈工大 信息 检索 实验 
室 扩展 同义词 林 , 使 用 Weka 平台 的 KNN 分 类 器 进行 分 类 。 为 
考察 优化 效果 , 使 用 查 准 率 、 查 全 率 和 Fl 测试 值 对 实验 结果 进 
行 评估 。 

查 准 率 考 察 分 类 系统 的 分 类 准确 性 ， 
是 否 真 的 属于 类 c;， 如 式 (15) 所 示 。 


划分 到 类 cj 中 的 文本 


P,= x100% 
5 


a 


(15) 


查 全 率 考察 分 类 系统 是 否 将 属于 类 cj; 的 所 有 文本 都 划分 
到 类 ci ， 公 式 为 
5 0 
P= 100% (16) 
可 用 Fl 值 来 综合 考察 这 两 个 指标 ，F1 值 公式 为 
PxPx2 
五 1 = 一 -一 一 一 x1009% (17) 


比较 经 典 CHI 方法 和 优化 后 的 CHI 方法 的 三 项 指标 数值 ， 
以 及 分 类 准确 提升 率 。 实 验 数 据 语料库 为 搜狗 实验 室 提 供 的 人 
工分 类 的 中 文 文本 语料库 ， 涵 盖 教 育 、 体 育 、 军 事 、 文 化 、 经 
济 、 计 算 机 、 健 康 、 工 作 、 旅 游 等 9 个 类 别 ， 从 中 选取 每 类 400 
篇 ,共计 3600 篇 文章 , 使 用 4 折 交 叉 验 证 方法 ,将 语料库 每 类 
分 成 均等 4 份 ， 每 次 实验 取 其 中 三 份 作为 训练 集 ， 剩 下 的 作为 
测试 集 ， 重 复 实验 四 次 去 平均 值 作 为 实验 结果 。 实 验 时 ， 首 先 
使 用 ICTCLAS 对 文本 进行 分 词 , 分 词 后 根据 TF-IDF 公式 计算 
文本 的 初试 特征 向 量 ， 保 存 该 特征 向 量 ， 保 证 之 后 的 对 比 实验 
使 用 同一 实验 数据 。 

该 实验 分 两 部 分 ， 首 先 利用 原始 的 VSM 方法 对 文本 进行 


Pe 
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一 外 一 |G 方 法 “一重 一 CH| 方 法 ”一 一 优化 CHI 方 法 
0.9 
0.85 
0.8 
0.75 
十 算 机 艺术 政治 体育 环 j ] 史 
图 4 三 种 方法 的 查 准 率 比 较 
一 9 一 1G 方法。 一 可 一 CHI 方 法 ”一 和 一 优化 CHI 方 法 
0.95 
0.9 FS 
Se 和 
0.8 
0.75 
+ 算 机 政 本 育 境 | 
图 5 三 种 方法 的 查 全 率 比 较 
一 $9 一 |G 方 法。 一 可 一 CHI 方 法 ”一生 一 优化 CHI 方 法 
0.9500 
0.9000 ee 
0.8500 加 加 -一 | 
0.8000 
0.7500 
十 算 机 术 政治 体 f 环 历 中 
图 6 三 种 方法 的 Fl 值 比较 
从 上 述 图 表 中 可 看 出 ， 同 一 算法 对 不 同类 别 的 文本 的 指标 
都 略 有 不 同 , 比 如 体育 类 的 文本 , 其 查 准 率 相 对 来 说 都 比较 高 ， 
因为 体育 类 的 有 许多 专 有 名 词 。 而 经 济 、 政 治 等 类 ， 有 很 多 重 


合 的 部 分 ， 因 此 查 准 


率 相对 较 低 。 在 查 全 率 方面 ， 三 种 算法 在 


查 全 率 方面 都 比较 稳定 , 在 不 同 的 类 别 , IG 和 传统 CHI 表现 各 


建 模 后 ， 利 用 特征 项 TF-IDF 权 值 对 其 排序 ， 从 中 选取 出 代表 优 劣 ， 性 能 相差 不 大 ， 优 化 后 CHI 方法 则 相 比 两 种 方法 有 明 
文本 的 特征 向 量 ; 然后 使 用 传统 的 CHI 方法 、IG 方法 和 优化 有 显 改善 。 本 文 提 出 的 CHI 优化 算法 在 文本 分 类 中 , 相 较 传统 IG 
的 CHI 方法 进行 分 类 ， 测 得 三 种 方法 分 类 的 查 全 率 、 查 准 率 和 ”方法 和 CHI 方法 在 查 全 率 方面 提升 效果 明显 , 在 查 准 率 方面 则 
Fl 值 。 三 种 方法 的 查 准 率 、 查 全 率 和 Fl 值 比较 ， 如 图 2~4 所 不 太 稳定 。 具体 实验 结果 如 表 2 所 示 。 对 比 优化 后 的 CHI 方法 
不 。 相 上 比 两 种 传统 方法 的 Fl 值 提 升 率 如 表 3、4 所 示 。 
表 2 CHI 方 法 和 优化 CHI 方法 文本 分 类 数据 统计 

类 别 计算 机 艺术 经 济 政治 体育 环境 历史 均值 

查 准 率 0.8182 0.8033 0.8309 0.8048 0.8093 0.8048 0.8477 0.8170 

IG 方法 查 全 率 0.8464 0.8352 0.8231 0.8478 0.8355 0.8436 0.8397 0.8388 

Fl 值 0.8321 0.8189 0.8270 0.8257 0.8222 0.8237 0.8437 0.8276 

查 准 率 0.8323 0.8335 0.8162 0.8322 0.8313 0.8432 0.8655 0.8363 

CHI 方 法 查 全 率 0.8266 0.8458 0.8379 0.8442 0.8591 0.8199 0.8173 0.8358 

Fl 值 0.8294 0.8396 0.8269 0.8382 0.8450 0.8314 0.8407 0.8359 

查 准 率 0.8466 0.8697 0.8629 0.8599 0.8927 0.8774 0.8883 0.8711 

优化 CHI 方法 ” 查 全 率 0.8801 0.8812 0.9033 0.8903 0.9111 0.8935 0.9101 0.8957 

Fl 值 0.8630 0.8754 0.8826 0.8748 0.9018 0.8854 0.8991 0.8832 
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表 3 优化 CHI 方法 相 比 IG 方法 的 Fl 值 提升 率 
类 别 计算 机 艺术 经 济 政治 体育 环境 历史 均值 
IGF1 值 0.8321 0.8189 0.8270 0.8257 0.8222 0.8237 0.8437 0.8276 
优化 CHIF1 值 0.8630 0.8754 0.8826 0.8748 0.9018 0.8854 0.8991 0.8832 
Fl 值 提升 率 3.72% 6.90% 6.73% 5.95% 9.68% 7.48% 6.56% 6.71% 
表 4 优化 CHI 方 法 相 比 CHI 方法 的 Fl 值 提升 率 
类 别 计算 机 艺术 经 济 政治 体育 环境 历史 均值 
CHIF1 值 0.8294 0.8396 0.8269 0.8382 0.8450 0.8314 0.8407 0.8359 
优化 CHIF1 值 0.8630 0.8754 0.8826 0.8748 0.9018 0.8854 0.8991 0.8832 
Fl 值 提 升 率 4.05% 4.26% 6.74% 4.38% 6.73% 6.49% 6.94% 5.66% 
在 同义词 聚 类 时 ， 一 词 多 义 可 能 会 对 实验 结果 带 来 影响 。 的 全 网 新 闻 数 据 语 料 库 进行 测试 ， 该 语料库 包含 财经 、 健 康 、 


为 此 ， 增 加 一 组 实验 对 比 未 加 多 义 词义 项 判别 的 同义词 聚 类 算 ”文化 等 10 个 频道 的 新 闻 数 据 ， 人 1.02GB 。 同 样 使 用 查 
闻 文 章 相 较 其 准 率 、 碍 全 率 和 Fl 测试 值 对 实验 结果 进行 评估 。 实 验 数据 如 表 


他 类 型 的 文章 ， 更 贴 合 人 类 的 自 


法 和 新 增多 义 词 判 别 的 ee 法 。 


于 新 


同义词 和 多 义 词 出 现 情况 更 为 频繁 ， 因 此 


用 词 相 对 更 为 多 变 ， 5、6 所 示 。 
使 用 搜狗 实验 室 提 供 


表 5 同义词 聚 类 方法 分 类 数据 


属性 汽车 财经 IT 健 月 体育 旅游 教育 招聘 文化 军事 均值 
查 准 率 0.8425 0.8257 0.8633 0.8526 0.8439 0.835 0.8024 0.8222 0.8017 0.8556 0.83449 
查 全 率 0.8377 0.8004 0.8331 0.8024 0.8426 0.8131 0.8335 0.8355 0.8152 0.823 0.82365 
Fl1 值 0.8401 0.8129 0.8479 0.8267 0.8432 0.8239 0.8177 0.8288 0.8084 0.8390 0.82886 
表 6 多 义 词 优化 方法 分 类 数据 
属性 汽车 财经 IT 健 肝 体 旅游 教育 招聘 文化 军事 均值 
查 准 率 ”0.8601 0.836 0.8707 0.8755 0.8631 0.8777 0.8459 0.8507 0.8559 0.8747 0.86103 
查 全 率 0.8410 0.8136 0.8451 0.8312 0.8437 0.825 0.8437 0.8519 0.8204 0.8301 ”0.83457 
F1 值 0.8504 0.8246 0.8577 0.8528 0.8533 © 0.8505 0.8448 0.8513 © 0.8378 0.8518 0.84751 
采用 多 义 词 义 项 判别 后 的 同义词 聚 类 方法 比 简单 同义词 聚 过 同义词 聚 类 合并 词义 相近 的 特征 项 ， 降 低 了 维 数 ， 针 对 卡 
类 方法 在 查 准 率 上 有 明显 提升 。 两 者 性 能 比较 如 图 7~9 所 示 。 as 提出 了 基于 词 频 的 特征 项 权 值 改 
从 上 述 图 表 中 可 看 出 ， 使 用 增加 多 义 词 词义 判别 后 ， 同 义 ” 进 。 在 降低 维 数 的 同时 ， 提 高 特征 项 选择 的 准确 性 。 对 简单 同 


司 聚 类 的 方法 性 能 有 明显 提升 。 
义 词 聚 类 方 本 


了 了 明显 改善 ， 特 别 是 在 教育 、 文 化 等 类 别 ， 


些 类 别 一 词 多 义 的 情况 可 能 相对 较 多 ， 简 单 同义词 聚 类 方法 没 ”” 碍 全 率 、F1l 值 等 方面 


有 考虑 一 词 多 义 情况 ， 可 能 导致 分 类 错误 。 使 用 多 义 词义 项 判 


别 优化 的 同义词 聚 类 方法 后 ， 减 


.| 


主要 是 在 查 准 率 方面 比 简单 同 义 词 聚 类 可 能 出 现 的 一 词 多 义 情 况 ， 提 出 基于 多 义 词 义 项 判别 
的 同义词 聚 类 优化 方法 ， 实 验 结果 表明 ， 新 的 方法 在 查 准 率 、 
相 比 传统 的 CHI 和 1IG 有 很 大 提升 。 
义 情况 对 分 类 结果 一 * 一 同义词 聚 类 ”一生 一 多 义 词 优 化 


低 了 一 词 多 


的 影响 ， 提 高 了 查 准 率 。 同 义 词 聚 类 方法 相 比 传统 方法 查 全 率 


有 明显 改善 ， 而 针对 一 词 多 义 提出 的 多 义 词义 项 判别 则 在 同 义 1 
词 聚 类 的 基础 上 提高 了 查 准 率 。 


4 ”结束 语 


0.82 


0.8 


文本 分 类 中 ， 最 重要 的 是 准确 提取 文本 特征 项 和 降 维 。 特 Om 


征 项 的 准确 提取 最 重要 的 是 准确 评估 每 个 特征 项 的 权 值 ， 降 维 0 


最 重要 的 是 选择 性 剔除 噪声 数据 
比 。 文 本 针对 传统 文本 分 类 方法 


提高 文本 文本 特征 提取 信 品 


的 卡 方 统计 方法 进行 了 改进 ， 


健康 体育 旅游 ”教育 


图 7 两 种 方法 的 查 准 率 比 较 


招聘 


文化 


军事 
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一 一 同义词 聚 类 ”一 一 多 义 词 优化 
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文化 军事 


图 8 两 种 方法 的 查 全 率 比 较 


一 一 同义词 聚 类 ”一 和 一 多 义 词 优化 
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建 康 体育 旅游 教育 招聘 文化 军事 


图 9 两 种 方法 的 Fl 值 比较 
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